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I: 


摘 要: 针对 低 资 源 的 濒危 语言 进行 了 端 到 端 语 音 识别 模型 的 建立 与 研究 ， 能 够 为 濒危 语言 的 保护 和 传承 探索 出 新 的 
途径 。 采 用 动态 双向 长 短 时 记忆 网 络 与 连接 时 序 分 类 模型 构造 端 到 端的 语音 识别 系统 ， 在 做 音素 级 别 的 识别 训练 时 ， 
传 入 模型 的 数据 批量 大 小 根据 训练 模型 做 自 适 应 调整 ， 不 仅 能 够 加 快 收敛 速度 ， 而 且 能 够 提高 模型 的 泛 化 性 。 通 过 修 
改 网 络 层次 与 结构 参数 ， 并 提取 不 同 的 语音 特征 进行 模型 对 比 ， 实 验 结 果 表 明 在 两 种 濒危 语言 一 一 吕 苏 语 和 土家 语 的 
数据 集 上 均 取得 了 较 好 的 识别 效果 。 
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Abstract: In view ofthe low resource of endangered languages, the establishment and research of end-to-end speech recognition 


model can explore new ways for the protection and transmission of endangered languages. this paper combined dynamic bi- 


directional long short-term memory network and connectionist temporal classification model into an end-to-end speech 
e recognition model. When performing phoneme-level recognition training, the batch size of the data passed into the model can 
SN be adaptively adjusted according to the training model, which not only speeds up the convergence but also improves the 
generalization of the model. By adjusting the hierarchy of the deep neural network and extracting different phonetic features for 
model comparison, the experimental results show that both the endangered languages - Lvsu and Tujia have good recognition 
results. 
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connectionist temporal classification 


于 时 序 问题 来 说 ， 输 出 序列 的 概率 远 比 输出 单 帧 的 概率 重要 得 
多 。 因 此 ， 针 对 此 问题 ， 在 基于 深度 学 习 的 语音 识别 领域 中 ， 
语音 信号 是 一 种 非 平稳 时 序 信号 ， 其 形成 和 感知 的 过 程 就 ” 端 到 端的 语音 识别 技术 B235 已 成 为 国内 外 近期 研究 的 热点 之 一 。 
是 一 个 复杂 信号 的 处 理 过 程 ， 而 语音 识别 可 视 为 一 个 序列 到 序 文献 [6~8] 提 出 由 长 短 时 记忆 (long short-term memory， 
列 的 分 类 问题 中 , 即 声学 观测 序列 兰 = (4,%,…, 加 ) 被 映射 到 LSTM ) 网 络 和 连接 时 序 分 类 (connectionist temporal 
字符 序列 W = (m,w Wy) 上 ,其 中 了 为 时 间 ，W 为 字符 个 classification, CTC) 结合 而 成 的 端 到 端的 语音 识别 系统 模型 ， 
数 , 解决 概率 P(W | X) 的 问题 。 在 时 序 分 类 任务 中 ,常用 的 方 该 模型 直接 对 一 段 语音 的 音素 序列 或 者 绑 定 的 音素 Context- 
法 是 输入 数据 与 给 定 标 签 必 须要 在 时 间 上 达到 帧 级 别 的 对 齐 ， dependent phone,CD-phone) 序列 与 对 应 的 语音 特征 序列 进行 后 
只 有 这 样 才能 使 用 隐 马 尔 可 夫 模 型 外 Chidden Markov model, 列 层面 建 模 ， 不 需要 利用 HMM 进行 强制 对 齐 得 到 帧 级 别 的 标 
HMM) 按 帧 进行 训练 。 然 而 ， 逐 帧 训练 输出 的 是 单 帧 概率 , 对  ” 注 ， 可 以 取得 相 比 于 传统 LSTM-HMM 声学 模型 更 好 的 性 能 。 
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文献 [9] 基 于 注意 机 制 Cattention) 的 端 到 端 模型 ， 直 接 实现 从 语 


音声 学 特征 序列 到 最 终 句子 级 的 音素 序列 、 
的 输出 ,但 是 在 大 词汇 量 连续 语音 识别 任务 上 , 该 方法 的 性 能 
前 和 最 好 的 语音 识别 系统 的 性 能 还 有 一 定 的 差距 。 
目前 国内 外 自动 语音 识别 技术 多 数 是 依赖 于 大 量 的 数据 资 


字符 序列 或 词 序列 


源 ， 而 濒危 语言 是 指使 用 人 数 越 来 越 少 的 、 行 将 灭绝 的 语言 ， 


可 采集 的 语音 数据 量 非 常 有 限 ， 属 于 低 资源 语音 识别 。 濒 危 语 


言 多 数 没有 文字 ， 


数据 不 易 收 集 , 因 此 对 濒危 语言 的 自动 语音 识别 有 很 大 挑战 性 。 
据 统计 ， 我 国 少数 民族 使 用 的 语言 在 130 种 以 上 ， 近 一 半 处 于 
衰退 状态 ， 当 前 我 国有 几 十 种 语言 处 于 濒危 状态 ， 
在 持续 ,甚至 有 所 加 剧 n9, 对 濒危 语言 的 识别 与 保护 有 助 于 维护 


文化 的 多 样 性 。 


以 口语 的 形式 存在 ， 母 语 人 的 数量 少 ， 导 致 


hinaXiv 合 作 其 i l 
于 重重 ， 等 : 基于 动态 BLSTM 和 CTC 的 濒危 语言 语音 识别 研究 


忆 性 ， 在 时 间 序 列 数据 学 习 方 面具 有 强大 的 建 模 能 力 ， 能 够 以 
一 种 灵活 的 方式 结合 数据 的 背景 信息 ， 对 即使 发 生 局 部 畸变 的 
数据 也 可 以 有 效 地 完成 学 习 任务 。 训 练 RNN 的 方法 是 在 传统 
的 反问 传播 (back propagation,BP) 上 加 了 时 间 的 考量 ， 称 为 
BPTT (back propagation through time )。 实 际 中 如 果 记 忆 的 窗口 
KK, RNN 会 存在 训练 不 稳定 ,梯度 消失 或 爆炸 等 问题 。 为 了 
克服 RNN 的 记忆 缺陷 ，Graves 提出 LSTM 网 络 09， 该 网 络 结 
构 采 用 了 大 量 记 忆 单 元 (celD) 和 复杂 的 信息 流 处 理 手段 ,用 于 记 
忆 上 下 文 信 息 ， 从 而 对 语音 的 长 时 相关 性 进行 建 模 。 


这 种 趋势 仍 


针对 濒危 语言 语音 识别 的 研究 ， 文 献 [11] 提 出 结合 CTC dx 
术 和 藏 语 语言 学 知识 , 使 


绑 定 的 三 音 子 (tri-phone) 作 为 建 模 单 


元 ， 解 决 建 模 单 元 的 稀 玻 性 问题 ， 但 训练 语 料 的 稀 玻 性 严重 降 


低 了 声学 模型 的 区 分 度 鲁 棒 性 。 


F 


文献 [12] 将 瓶颈 特征 及 其 与 


MFCC 的 复合 特种 


传统 的 MFCC 特征 进行 GMM-HMM 声学 建 模 ， 虽 然 识 别 准确 


用 于 藏 语 拉萨 语 连续 语音 识别 任务 中 ， 代 替 


率 得 到 了 一 定 的 提升 ， 但 是 使 用 的 仍 是 传统 语音 识别 方法 。 文 
献 [13] 针 对 低 资源 条 件 下 带 标 注 训 练 数 据 较 少 的 问题 ， 


于 i-vector 特征 的 


提出 基 
经 网 络 系统 ， 并 在 OPEN KWS 


LSTM 递归 


2013 标准 数据 集 上 字 节 错误 率 获 得 了 显著 的 下 降 , 但 是 缺少 对 


LSTM 网 络 进行 


优化 。 文 献 [14] 在 使 用 CTC 网 络 时 加 入 


Attention 模型 ， 


了 效 地 完成 了 低 资 源 语言 的 关键 词 搜索 和 语音 


识别 ， 但 是 语音 识别 效果 较 差 。 由 于 端 到 端的 语音 识别 系统 不 


的 要 求 。 


危 语言 的 低 资 源 尾 
型 的 编码 阶段 ， 
directional LSTM, 


络 是 由 两 个 单 向 LSTM E FAME- EH, 
LSTM 网 络 的 状态 


量 大 小 是 可 变 的 ， 


序列 的 对 应 关系 ， 
定 的 元 杂工 作 。 


效 地 挖掘 语音 信号 的 帧 间 先 验 信息 ，T 


的 泛 化 性 。 而 在 解码 阶段 , 采 


公 在 训练 过 程 中 自动 学 习 声 学 特征 和 标注 序列 的 对 应 关系 ， 不 
需要 强制 状态 对 齐 等 一 系列 繁琐 的 步 又， 而 


减少 了 对 发 音 词 


本 文 实验 数据 为 两 种 濒危 语言 一 吕 苏 语 和 土家 语 ， 针 对 濒 


E， 对 端 到 端的 语音 识别 模型 进行 研究 。 在 模 
采用 动态 双向 长 短 时 记忆 (dynamic bi- 
DBLSTM) 网 络 对 长 序列 建 模 ，DBLSTM 网 
其 输出 由 这 两 个 
k 同 决定 ， 而 在 每 一 次 训练 时 传 入 模型 的 批 
根据 训练 模型 进行 自 适应 调整 ， 这 样 不 仅 
可 以 提高 模型 
] CTC 自动 学 习 并 优化 输入 输出 
得 到 整体 序列 的 概率 ， 从 而 减少 了 标签 预 划 


1 ”双向 长 短期 记忆 网 络 


翻译 、 看 图 说 话 、 


在 时 序 模型 中 ， j 
network RNN) ,其 应 用 场景 十 分 


£& pj k U5 
泛 ， 可 用 于 语音 识别 、 机 器 
问答 系统 等 领域 。 循 环 神经 网 络 自身 的 结构 


C recurrent neural 


循环 
pa 


特点 已 使 得 它 能 够 较 好 地 挖掘 利用 序列 数据 的 信息 ， 即 


有 记 


在 LSTM 网 络 中 ， 每 个 神经 元 是 一 个 “记忆 细胞 ”， 细 胞 里 
面 有 一 个 “输入 门 ” 一 个 “遗忘 门 ? 和 一 个 “输出 门 ”可 以 选择 性 
记忆 历史 信息 。 输 入 门 决定 何 时 让 输入 进入 细 
决定 何 时 应 该 记 住 前 一 时 刻 的 记忆 ， 输 出 门 决 定 何 时 让 记忆 流 
入 到 下 一 时 刻 。LSTM ££ t 时刻 按 照 如 下 式 子 进行 计算 。 


US, EI] 


i, - o(W, x ,*W,h, , --W.c, , +b,) (1) 

f, - 0(W,x, -W,h, ,--W,c, , tb) Q) 
c, = f,c, +LØW .x , AW, h, b.) (3) 

0, - o(W,.x ,*W,,h, , +W, c, * b.) (4) 

h, — o,é(c,) (5) 

y, 2W,h +b, (6) 


Hop: oh. f. 06. 0,. h 是 分 别 是 输入 门 、 遗 忘 门 、 记 忆 单 
元 、 输 出 门 和 隐藏 层 状态 ，W 为 各 部 分 的 权 值 和 矩阵， 如 Wi 为 
输入 门 与 输入 层 之 间 的 权 值 矩阵 ，b 为 各 部 分 的 偏 置 矩阵 ，G 
是 sigmoid 函数 ，$ 为 神经 元 激活 函数 ， 如 tanh 等 。 

语音 信号 不 仅 是 一 种 非 平稳 的 随机 信和 号， 而且 是 一 种 前 后 
相关 性 较 强 的 信号 ， 如 何 有 效 地 对 长 时 序 动态 相关 性 进行 建 模 
至 关 重 要 。 为 了 充分 利用 未 来 的 上 下 文 信息 ，Graves 等 将 双向 
长 短期 记忆 网 络 (bi-directional LSTM, BLSTM) 应 用 于 语音 识 
别 ， 该 网 络 结构 由 两 个 单 向 LSTM 上 下 项 加 在 一 起 组 成 
出 由 这 两 个 LSTM 网 络 的 状态 共同 决定 ， 可 以 提供 给 输出 层 完 
整 的 过 去 和 未 来 的 上 下 文 信息 。 


2 ”连接 时 序 分 类 


连接 时 序 分 类 CTC 是 由 Graves 等 人 于 2006 年 提出 来 的 一 
种 时 序 分 类 算法 (1，CTC 与 传统 的 方法 不 同 ， 其 不 需要 标签 在 
时 间 上 的 帧 级 别 对 齐 就 可 以 进行 训练 ， 对 输入 数据 的 任 一 时 刻 
做 出 的 预测 不 是 很 关心 ， 而 其 重点 关注 的 是 整体 上 输出 是 否 上 
标签 一 致 ，CTC 输出 的 是 整体 序列 的 概率 ， 从 而 减少 了 标签 预 
划 定 的 宛 杂 工作 。CTC 网 络 输出 层 还 包含 一 个 空 (blank) 节 点 ， 
这 个 blank 标注 主要 是 为 了 对 静音 、 字 间 停 顿 、 字 间 混 淆 进行 
建 模 。 因 此 ，CTC 很 善于 处 理 时 序 分 类 问题 。 

设 给 定 输入 序列 X = Q5,3,, xp) ， 时 间 为 从 1 到 工时 
刻 ，CTC 网 络 按 公式 ()~(O) 计算 其 对 应 的 输出 序列 
Y Qi» Y) Ky = Opyo x i=,2,.,K 
为 第 i 帧 的 条 件 概率 分 布 ， 则 softmax 层 的 输出 为 
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exp(y?) 


P(k | t,x) = y— NENNEN 
Y aepo) 


(7) 


其 中 : 开 为 所 有 标签 个 数 ， 即 CTC 网 络 输 出 层 结 点 个 数 开 。 
对 于 了 帧 声学 输入 ,CTC 网 络 学 习 得 到 长 度 为 了 的 标注 序 
列 z 的 概率 为 


P(a| x)= | [PG |i (8) 


对 于 给 定 的 标注 序列 上 HF blank 插入 的 位 置 不 同 及 非 
blank 标注 重复 性 的 存在 ， 称 与 上 存在 多 对 一 的 关系 。 因 此 可 
将 目标 函数 重 写 如 下 : 

P(u|x)- 2. PGr|x (9) 
meB (y) 
其 中 : u-BGn 为 映射 函数 ， 即 给 定 参考 标注 上 目标 函数 定义 
如 下 : 


CTC(x) = -log P(u|x) (10) 

MER CTC 网 络 的 训练 过 程 不 难看 出 ，CTC 网 络 解码 的 

最 佳 路 径 就 是 在 给 定 输入 序列 的 情况 下 ， 找 到 概率 最 大 的 输出 
序列 : 


Chin 
于 重重 ， 等 : 基于 动态 BLSTM 和 CTC 的 濒危 语言 语音 识 另 


在 解码 阶段 , 由 于 CTC 可 以 被 视 为 一 种 能 够 直接 优化 输入 
序列 与 输出 目标 序列 似 然 度 的 目标 函数 , 在 此 目标 函数 下 , CTC 
在 训练 过 程 中 自动 学 习 并 优化 输入 输出 序列 的 对 应 关系 。CTC 
网 络 的 输出 层 为 softmax 层 , 节点 个 数 与 标注 序列 的 个 数 相同 。 
而 在 解决 标注 存在 闭 字 的 问题 上 , blank 节点 起 到 重要 作用 。 在 
语音 识别 中 的 一 帧 数据 很 难 给 出 一 个 label, 但 是 几 十 帧 就 容易 
判断 出 对 应 的 发 音 label. 在 CTC 网 络 中 , 正 是 由 于 blank 节点 
的 存在 ， 所 以 才 可 以 采取 跳 帧 的 方法 。CTC 的 输出 和 label 满 
足 如 下 的 等 价 关系 : 

F(i—ie—) — F(-ii ——ie) = iie (12) 
其 中 :“i” 和 “e” 为 濒危 语言 国际 音标 ,“-” 为 blank, 由 式 (12) 
可 以 看 出 , 多 个 输出 序列 可 以 映射 到 一 个 输出 。 因此 CTC 不 仅 
能 够 加 快 解码 速度 ， 而 且 在 训练 过 程 中 自动 优化 输入 输出 序列 
的 对 应 关系 。 
3.2 ”动态 双向 长 短期 记忆 网 络 
由 于 濒危 语言 的 低 资源 性 导致 语音 数据 存在 的 数据 稀 疏 问 
题 。 在 编码 阶段 ,每 一 次 训练 时 传 入 模型 的 批量 大 小 是 可 变 的 
本 文 称 这 种 双向 LSTM 模型 为 动态 双向 长 短 时 记忆 网 络 。 
DBLSTM 网 络 是 由 两 个 单 向 LSTM 上 下 铸 加 在 一 起 组 成 , 其 输 
出 由 这 两 个 LSTM 网 络 的 状态 共同 决定 ,在 做 音素 级 别 的 识别 
训练 时 ，batch 大 小 能 够 根据 训练 模型 做 自 适 应 调整 ,首先 根据 


一 


ux BT) T =arg max P(A | x) (11) 
其 中 : x 为 了 帧 输入 序列 的 后 验 概 率 输出 的 最 大 值 对 应 的 标 
注 序列 。 
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端 到 端的 DBLSTM-CTC 模型 

为 了 解决 濒危 语言 低 资 源 问题 ,实现 更 好 的 语音 识别 模型 ， 
本 文采 用 DBLSTM 网 络 与 CTC 模型 结合 共同 构造 端 到 端的 语 
音 识别 系统 。 图 1 给 出 了 基于 DBLSTM-CTC 声学 模型 的 语音 
识别 系统 框图 ， 本 文中 所 使 用 的 濒危 语言 数据 均 没 有 文字 ， 模 
型 输入 的 时 序 为 每 帧 语音 特征 ， 输 出 的 时 序 为 国际 音标 。 首 先 
对 实验 音频 数据 进行 一 系列 的 预 处 理 ， 然 后 分 析 语音 的 频谱 
提取 相关 特征 , 接着 采用 DBLSTM 网 络 对 长 序列 进行 建 模 , 充 
分 挖掘 上 下 文 信息 。 
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于 端 到 端的 濒危 语言 语音 
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识别 模型 


硬件 配置 设 定 batch 大 小 上 限 , 给 定 初始 batch 大 小 ( 即 下 限 )， 

以 2 为 基本 增 减 单位 ， 通 过 计算 前 一 次 训练 的 损失 函数 均值 与 
方差 来 判断 后 一 次 训练 batch. 大 小 的 增 大 或 减 小 ， 以 适应 模型 
权 值 变化 的 统计 特性 ， 这 样 不 仅 能 够 加 快 收敛 速度 ， 而 且 能 

提高 模型 的 泛 化 能 力 。 图 2 展示 了 在 训练 时 设置 batch 大 小 固 
定 为 16 和 给 定 batch 初始 值 为 10 并 对 batch 自 适应 调整 时 的 
损失 函数 值 变 化 情况 。 
通过 图 2 可 以 看 出 , 当 给 定 batch 初始 值 并 做 自 适应 调整 ， 

相对 于 设置 batch 固定 大 小 时 ， 模 型 在 训练 时 迭代 相同 次 数 时 
损失 函数 值 更 小 且 收 敛 速 度 更 快 。 


图 2 设 定 batch=16 时 与 batch 自 适 应 时 的 损失 函数 值 变化 

本 文选 用 适应 性 动量 估计 算法 [8 
estimation, Adam ) 作 为 模型 的 优化 算法 , 该 算法 结合 了 AdaGrad 
和 RMSProp 算法 的 优点 ，Adam 不 仅 可 以 基于 一 阶 矩 均值 计算 
适应 性 参数 学 习 率 ， 它 同时 还 充分 利用 了 梯度 的 三 阶 矩 均值 ， 
能 够 对 不 同 参数 计算 适应 性 学 习 率 并 且 占 用 较 少 资源 。 
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4 ”实验 及 结果 分 析 


4.1 实验 数据 

本 文 实验 使 用 以 下 两 种 濒危 语言 的 语 料 数据 : 吕 苏 语 包 括 
15 篇 口语 短篇 语 料 , 共有 6257 个 句子 和 4149 个 词汇 , 总 计时 
长 为 2 小 时 52 分 20 秒 。 土 家 语 语 料 包括 3 篇 口语 短篇 语 料 、 
300 核心 词 口语 语 料 和 2 000 个 主要 词 的 口语 语 料 、 和 部 分 语 
法 例句 口语 语 料 , 共有 2130 个 句子 和 10029 个 词汇 , 总 计时 长 
为 5 小 时 9 分 15 fb. 

利 
ELAN 主要 工作 流程 包括 三 个 部 分 : 285. WU. ÉSES (6 
根据 说 话 人 的 语音 间隔 将 有 内 容 的 语音 信息 分 离 出 来 ， 其 次 根 
据 语音 和 记 音 内 容 进行 人 工 转 写 标 注 ， 最 后 把 转 写 出 对 的 词汇 
根据 汉语 语法 信息 人 工 串 成 一 句 完 整 通顺 的 句子 。 
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00:02:12.000 


00:02:13.000 
— 立 4i»? xa»5le?', ne55 [(i55 tci 
国际 音 5 + | 
1 语 对 译 | 那 狗 两 个 就 互相 咬 
[62] 


Lo e AH AI T da 
汉语 翻译 | 宅 们 西 个 互相 咬 了 起 来 。| 一 
[97] 


图 3 原始 濒危 语言 语 料 标注 内 容 
3 可 看 出 , 使 用 ELAN 软件 标注 的 内 容 包括 : 口语 - 医 
际 音标 、 口 语 -汉语 对 译 、 口 语 -汉语 翻译 。 
吕 苏 语 的 音 位 系统 由 声母 和 韵母 构成 09-20， 其 中 声母 部 分 
38 个 单 辅音 和 27 个 复 辅音 组 成 ， 韵 母 部 分 由 18 个 单元 音 
和 12 个 复元 音 组 成 。 同样 地 , 土家 语 的 音 位 系统 也 是 由 j 
韵母 构成 ，21 个 声母 中 包括 两 个 半 元 音声 母 ， 韵母 | 
音 、 复 元 音 11 个 和 8 个 鼻 化 元 音 组 成 。 
42 ”实验 平台 
本 文 实验 采用 的 服务 器 设备 为 Dell PowerEdge R730， 其 中 
处 理 器 为 Intel® Xeon® CPU E5-2643 v3 @3.40 GHz， 实 验 环 
境 为 在 Ubuntu 16.04 系统 上 安装 的 深度 学 习 框 架 TensorFlow 
1.1.0，Cuda 8.0。 
4.3 ”实验 模型 参数 选取 
本 文 在 训练 过 程 中 ， 初 步 设置 DBLSTM 模型 参数 如 下 : 
batch 大 小 初始 为 10， 隐 层 个 数 为 2， 隐 层 节 点 个 数 为 256。 图 
4 和 图 5 展示 了 相同 参数 下 不 同学 习 率 (lr=0.005,0.001,0.0001) 
对 训练 语音 识别 系统 的 损失 函数 变化 和 模型 精度 的 影响 。 
D 吕 苏 语 语 料 实验 部 分 
4 和 5 可 以 看 出 ， 随 着 和 迭代 次 数 的 增加 ， 当 学 习 率 
lr=0.001 时 ， 最 终 获 得 的 损失 函数 较 小 ， 同 时 训练 时 的 错误 识 
别 率 也 较 小 ,说 明 学 习 率 在 选取 时 不 是 越 小 越 好 , 需要 进行 不 同 


D 


D 


] ELAN 软件 濒危 语言 口语 语 料 对 进行 人 工 标注 和 存储 。 
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学 习 率 模 型 结果 的 对 比 。 


Train Epoch 


图 4 吕 苏 语 在 不 同学 习 率 下 训练 时 的 损失 函数 变化 情况 


图 5 吕 苏 语 在 不 同学 习 率 下 训练 时 的 错误 识别 率 
2) 土家 语 语 料 实验 部 分 


=-=- Ir=0.005 
==- Ir=0.001 
==- Ir=0.0001 
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图 6 土家 语 在 不 同学 习 率 下 训练 时 的 损失 函数 变化 情况 
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图 7 土家 语 在 不 同学 习 率 下 训练 时 的 错误 识别 率 
由 图 6 和 7 也 可 以 看 出 ， 随 着 迭代 次 数 的 增加 ， 当 学 习 率 
lr=0.001 时 ， 最 终 获 得 的 损失 函数 较 小 ， 同 时 训练 时 的 错误 识 
别 率 也 较 小 ， 因 此 本 文 实验 中 的 学 习 率 均 取 值 为 0.001。 
通过 修改 网 络 结构 中 的 隐 层 个 数 、 激 活 函 数 等 参数 ， 最 后 
得 到 语音 识别 实验 的 最 佳 识 别 率 ， 此 时 相应 的 DBLSTM 模型 
参数 分 别 是 ， 隐 层 个 数 为 3， 隐 层 节点 个 数 为 512， 学 习 率 为 
0.001. 
44 实验 分 析 

为 了 验证 本 文 基于 DBLSTM 网 络 与 CTC 模型 结合 共同 构 
造 端 到 端的 语音 识别 系统 的 优势 ， 将 DBLSTM 模型 蔡 换 为 
BLSTM 模型 进行 对 比 ， 设 置 模型 参数 分 别 是 : batch 大 小 初始 
为 10， 隐 层 个 数 为 3， 隐 层 节 点 个 数 为 512， 学 习 率 为 0.001， 
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即 以 相同 参数 分 别 对 吕 苏 语 和 土家 语 语 料 进 行 不 同 语音 识别 模 等 方法 提高 系统 模型 的 稳定 性 和 识别 准确 率 。 
型 的 实验 ， 并 提取 不 同 的 语音 特征 -MFCC (Mel-frequency 参考 文献 
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cepstral coefficients) 和 FBank (filter bank) 进 行 对 比 ， 实 验 结果 如 
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